We study time-inhomogeneous episodic reinforcement learning (RL) under general function approximation and sparse rewards. We design a new algorithm, Variance-weighted Optimistic $Q$-Learning (VO$Q$L), based on $Q$-learning and bound its regret assuming completeness and bounded Eluder dimension for the regression function class. As a special case, VO$Q$L achieves $\tilde{O}(d\sqrt{HT}+d^6H^{5})$ regret over $T$ episodes for a horizon $H$ MDP under ($d$-dimensional) linear function approximation, which is asymptotically optimal. Our algorithm incorporates weighted regression-based upper and lower bounds on the optimal value function to obtain this improved regret. The algorithm is computationally efficient given a regression oracle over the function class, making this the first computationally tractable and statistically optimal approach for linear MDPs.
translated by 谷歌翻译
供应链平台(SCP)为下游行业提供了许多原材料。与传统的电子商务平台相比,由于用户兴趣有限,SCP中的数据更为稀疏。为了解决数据稀疏问题,可以应用跨域建议(CDR),从而通过源域信息提高目标域的建议性能。但是,将CDR应用于SCP,直接忽略了SCP中商品的层次结构,从而降低了建议性能。为了利用此功能,在本文中,我们以餐饮平台为例,并提出了图形跨域推荐模型GRES。该模型首先构造了树状图,以表示菜肴和成分不同节点的层次结构,然后应用我们提出的Tree2Vec方法将GCN和BERT模型组合到嵌入图中以嵌入图表以获取建议。商业数据集上的实验结果表明,GRES在供应链平台的跨域建议中明显优于最先进的方法。
translated by 谷歌翻译
非线性独立组件分析(ICA)旨在从可观察到的非线性混合物中回收基本的独立潜在来源。如何使非线性ICA模型可识别到某些微不足道的不确定性是无监督学习的长期问题。鉴于某些辅助变量(例如,类标签和/或域/时间索引)作为弱监督或归纳偏见,最近的突破将源标准独立性作为条件独立性重新制定为条件独立性。但是,具有无条件先验的非线性ICA不能从此类发展中受益。我们探索替代路径,并仅考虑在混合过程中的假设,例如结构稀疏性或独立影响。我们表明,在此类约束的特定实例下,可以从其非线性混合物到置换和零件转换的独立潜在来源,从而实现非线性ICA无辅助变量的非平地可识别性。我们提供估计方法并通过实验验证理论结果。图像数据的结果表明,我们的条件可能存在于许多实际数据生成过程中。
translated by 谷歌翻译
当前的预训练语言模型(PLM)通常是通过静态数据训练的,忽略了在现实情况下,各种来源的流数据可能会不断增长。这要求PLM终生整合来自所有来源的信息。尽管可以通过对所有现有数据进行详尽的预培训来实现此目标,但已知该过程在计算上是昂贵的。为此,我们提出了Elle,目的是为新兴数据有效终身预训练。具体而言,ELLE由(1)函数保留的模型扩展组成,它们灵活地扩展了现有的PLM的宽度和深度以提高知识获取的效率; (2)预先训练的领域提示,它消除了在预训练期间学习的多功能知识,并刺激了下游任务的适当知识。我们通过来自BERT和GPT上5个域的流数据进行实验。结果表明,在预训练效率和下游性能中,ELLE的优越性超过了各种终身学习基线。这些代码可在https://github.com/thunlp/elle上公开获得。
translated by 谷歌翻译
在许多环境中(来自人体肠道到海洋生态系统)的混合群落发现了生物体,并且可以对人类健康和环境产生深远的影响。 Metagenomics通过高通量测序研究这种群体的基因组材料,得到用于随后分析的DNA子序列。标准工作流程中称为啤酒的基本问题是发现与未知构成生物相关的基因组子组的群集。随后的固有噪声,需要对它们施加的各种生物限制以及偏斜簇大小分布加剧了这种无监督的学习问题的难度。在本文中,我们使用曲线图提出了一种新的配方,其中节点是子序列的,并且边缘代表同意信息。此外,我们模拟了提供了关于不能聚集在一起的节点的异细信号的生物限制。我们通过开发(i)图表示学习的新算法来解决融合问题,这些算法保留了奇妙关系和基于异语的基于约束的基于曲线的图形聚类方法,该方法解决了串簇大小分布的问题。在实际和合成数据集上的广泛实验证明我们的方法称为Repbin,优于各种各样的竞争方法。我们的约束图形表示学习和聚类方法,其在其他域中也可以是有用的,也可以推进距离偏心神经融合和图形表示学习的最先进。
translated by 谷歌翻译
时空表示学习对于视频自我监督的表示至关重要。最近的方法主要使用对比学习和借口任务。然而,这些方法通过在潜在空间中的特征相似性判断所学习表示的中间状态的同时通过潜伏空间中的特征相似性来学习表示,这限制了整体性能。在这项工作中,考虑到采样实例的相似性作为中级状态,我们提出了一种新的借口任务 - 时空 - 时间重叠速率(Stor)预测。它源于观察到,人类能够区分空间和时间在视频中的重叠率。此任务鼓励模型区分两个生成的样本的存储来学习表示。此外,我们采用了联合优化,将借口任务与对比学习相结合,以进一步增强时空表示学习。我们还研究了所提出的计划中每个组分的相互影响。广泛的实验表明,我们的拟议Stor任务可以赞成对比学习和借口任务。联合优化方案可以显着提高视频理解中的时空表示。代码可在https://github.com/katou2/cstp上获得。
translated by 谷歌翻译
图形神经网络(GNNS)在具有图形结构数据的各种任务中取得了巨大成功,其中节点分类是必不可少的。无监督的图形域适应(UGDA)显示了其降低节点分类标签成本的实用价值。它利用标记图(即源域)的知识来解决另一个未标记的图形(即目标域)的相同任务。大多数现有的UGDA方法严重依赖于源域中的标记图。它们利用来自源域的标签作为监控信号,并在源图和目标图中共同培训。但是,在一些真实的场景中,由于无法使用或隐私问题,源图无法访问。因此,我们提出了一种名为Source Firect Insuperved Graph域适应(SFUGDA)的新颖情景。在这种情况下,我们可以从源域中杠杆的唯一信息是训练有素的源模型,而不会曝光源图和标签。结果,现有的UGDA方法不再可行。为了解决本实际情况的非琐碎的适应挑战,我们提出了一种模型 - 无话学算法,用于域适应,以充分利用源模型的辨别能力,同时保留目标图上的结构接近度的一致性。我们在理论和经验上证明了所提出的算法的有效性。四个跨域任务的实验结果显示了宏F1得分的一致性改进,高达0.17。
translated by 谷歌翻译
经认证的稳健性是安全关键应用中的深度神经网络的理想性质,流行的训练算法可以通过计算其Lipschitz常数的全球界限来认证神经网络的鲁棒性。然而,这种界限往往松动:它倾向于过度规范神经网络并降低其自然精度。绑定的Lipschitz绑定可以在自然和认证的准确性之间提供更好的权衡,但通常很难根据网络的非凸起计算。在这项工作中,我们通过考虑激活函数(例如Relu)和权重矩阵之间的相互作用,提出了一种有效和培训的\ emph {本地} Lipschitz上限。具体地,当计算权重矩阵的诱发标准时,我们消除了相应的行和列,其中保证激活函数在每个给定数据点的邻域中是常数,它提供比全局Lipschitz常数的可怕更严格的绑定神经网络。我们的方法可用作插入式模块,以拧紧在许多可认证的训练算法中绑定的Lipschitz。此外,我们建议夹住激活功能(例如,Relu和Maxmin),具有可读的上限阈值和稀疏性损失,以帮助网络实现甚至更严格的本地嘴唇尖端。在实验上,我们表明我们的方法始终如一地优于Mnist,CiFar-10和Tinyimagenet数据集的清洁和认证准确性,具有各种网络架构的清洁和认证的准确性。
translated by 谷歌翻译
We introduce a new tool for stochastic convex optimization (SCO): a Reweighted Stochastic Query (ReSQue) estimator for the gradient of a function convolved with a (Gaussian) probability density. Combining ReSQue with recent advances in ball oracle acceleration [CJJJLST20, ACJJS21], we develop algorithms achieving state-of-the-art complexities for SCO in parallel and private settings. For a SCO objective constrained to the unit ball in $\mathbb{R}^d$, we obtain the following results (up to polylogarithmic factors). We give a parallel algorithm obtaining optimization error $\epsilon_{\text{opt}}$ with $d^{1/3}\epsilon_{\text{opt}}^{-2/3}$ gradient oracle query depth and $d^{1/3}\epsilon_{\text{opt}}^{-2/3} + \epsilon_{\text{opt}}^{-2}$ gradient queries in total, assuming access to a bounded-variance stochastic gradient estimator. For $\epsilon_{\text{opt}} \in [d^{-1}, d^{-1/4}]$, our algorithm matches the state-of-the-art oracle depth of [BJLLS19] while maintaining the optimal total work of stochastic gradient descent. We give an $(\epsilon_{\text{dp}}, \delta)$-differentially private algorithm which, given $n$ samples of Lipschitz loss functions, obtains near-optimal optimization error and makes $\min(n, n^2\epsilon_{\text{dp}}^2 d^{-1}) + \min(n^{4/3}\epsilon_{\text{dp}}^{1/3}, (nd)^{2/3}\epsilon_{\text{dp}}^{-1})$ queries to the gradients of these functions. In the regime $d \le n \epsilon_{\text{dp}}^{2}$, where privacy comes at no cost in terms of the optimal loss up to constants, our algorithm uses $n + (nd)^{2/3}\epsilon_{\text{dp}}^{-1}$ queries and improves recent advancements of [KLL21, AFKT21]. In the moderately low-dimensional setting $d \le \sqrt n \epsilon_{\text{dp}}^{3/2}$, our query complexity is near-linear.
translated by 谷歌翻译
Exploring dense matching between the current frame and past frames for long-range context modeling, memory-based methods have demonstrated impressive results in video object segmentation (VOS) recently. Nevertheless, due to the lack of instance understanding ability, the above approaches are oftentimes brittle to large appearance variations or viewpoint changes resulted from the movement of objects and cameras. In this paper, we argue that instance understanding matters in VOS, and integrating it with memory-based matching can enjoy the synergy, which is intuitively sensible from the definition of VOS task, \ie, identifying and segmenting object instances within the video. Towards this goal, we present a two-branch network for VOS, where the query-based instance segmentation (IS) branch delves into the instance details of the current frame and the VOS branch performs spatial-temporal matching with the memory bank. We employ the well-learned object queries from IS branch to inject instance-specific information into the query key, with which the instance-augmented matching is further performed. In addition, we introduce a multi-path fusion block to effectively combine the memory readout with multi-scale features from the instance segmentation decoder, which incorporates high-resolution instance-aware features to produce final segmentation results. Our method achieves state-of-the-art performance on DAVIS 2016/2017 val (92.6% and 87.1%), DAVIS 2017 test-dev (82.8%), and YouTube-VOS 2018/2019 val (86.3% and 86.3%), outperforming alternative methods by clear margins.
translated by 谷歌翻译